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摘要 : 


ID 


【 目的 】 自 动 王 别 科技 论文 中 描述 研究 主题 的 关键 语句 。[ 方法 ] 以 论文 小 节 为 单位 组 织 句子 集 , 通过 训 
练 领域 词 向 量 计算 句子 间 WMD 距离 得 到 相应 语义 相似 度 , 优化 TextRank 算法 迭代 过 程 , 利用 外 部 特征 对 所 得 


权 值 进行 调整 , 按 句子 权 值 降序 选取 关键 主题 句 。[ 结果 】 以 气候 变化 领域 科技 论文 作为 实验 数据 ， 以 人 工 标 注 
的 结果 为 基准 对 本 文 的 算法 和 传统 的 TextRank 算 法 进行 对 比 实验 , 初步 结果 表明 该 方法 的 识别 效果 (F 值 ) 比 传统 
TextRank 算法 提升 约 5%。[ 局 限 ] 句子 特征 提取 有 待 提高 , 词 向 量 训练 及 方法 中 的 相关 参数 需要 做 进一步 优化 。 
【 结论 ] 基于 领域 词 向 量 , 融合 WMD 语义 相似 度 的 TextRank 改进 算法 , 能够 较 好 地 甄别 科技 论文 小 节 内 部 中 心 
句 ， 辅 以 外 部 特征 的 权 值 调整 后 可 以 较 好 地 识别 出 一 篇 论文 的 核心 主题 句 。 


关键 词 : WMD TextRank 
分 类 号 : TP393 


语义 相似 ”主题 句 识别 ”外 部 特征 


1 3 引 


科技 论文 中 作者 常 聚 焦 于 一 个 主要 研究 问题 ,在 文 
献 分 析 中 可 用 研究 主题 来 表示 ,主题 句 是 论文 中 用 于 论 
证 研究 主题 的 句子 , 分 布 于 文中 主要 段落 中 。 主 题 句 识 
别 作为 文本 分 析 的 基础 技术 之 一 , 其 在 信息 检索 、 自 动 
文摘 及 知识 发 现 等 自然 语言 处 理应 用 中 发 挥 着 重要 作 
用 。 识 别 领域 科技 论文 中 的 核心 主题 句 , 就 是 要 从 全 文 
中 将 描述 和 揭示 研究 主题 的 关键 语句 进行 鉴别 和 抽取 。 
它 是 科技 论文 内 容 提炼 的 关键 技术 环节 ,能 帮助 研究 者 
快速 发 现 论文 中 相对 有 价值 的 内 容 , 提高 科研 效率 。 

文本 主题 句 识别 的 一 般 过 程 为 : 识别 文本 中 的 候选 
主题 句 ; 合理 评估 这 些 候选 主题 名 表达 文本 核心 内 容 及 
其 主题 的 重要 程度 ,从 中 挑选 合适 的 句子 作为 主题 句 M。 
而 评估 句子 重要 性 的 方法 主要 是 通过 度量 句子 自 导 所 带 


了 中 


特征 (位 置 、 主 题词 、 长 度 等 ) 以 及 句子 之 间 的 相互 关系 
进行 评估 。 前 者 主要 利用 自身 统计 特征 构建 模型 进行 权 
值 打分 或 监督 学 习 ， 而 后 者 则 将 句子 及 其 关系 转化 为 图 
模型 进行 识别 , 以 TextRankD 为 代表 。 

传统 TextRank 中 使 用 特征 词 向 量 表 示 句 子 ， 再 利 
用 距离 相似 度 计算 方法 (如 欧 氏 距离 、 余 弦 相 似 度 等 ) 
计算 句子 间 相 似 度 , 但 在 句子 表示 上 存在 维 数 灾难 及 
同 近义词 的 问题 。 为 了 解决 以 上 问题 , 本文 将 以 基于 
词 向 量 (Word Embedding) 语 义 相 似 的 WMD(Word 
Movers Distance) 中 表示 句子 间 的 距离 ， 对 TextRank 算法 
进行 改进 ， 并 利用 论文 内 容 结 构 对 所 得 结果 进行 优化 ， 
更 新 权重 并 排序 , 最 终 得 到 科技 论文 的 核心 主题 句 。 


2 主题 句 识 别 相关 研究 


主题 句 识 别 作 为 多 项 自然 语言 处 理应 用 的 基础 
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性 工作 , 国内 外 学 者 对 此 提出 了 多 种 方法 ， 因 时 间 发 
展 和 技术 手段 不 同 , 主要 有 以 下 三 种 : 

(1) 基于 统计 特征 的 方法 。 通 过 将 原文 本 转变 为 
句子 的 线性 序列 ,把 句子 转变 为 词 的 线性 序列 ， 以 一 
定 的 特征 指标 对 词语 句子 赋予 相应 的 权重 ， 最 终 选择 
综合 权 值 较 高 的 句子 作为 输出 ,得 到 主题 名 所 。Luhnl 
指出 的 词 频 、Baxendalelg 提 及 的 句子 位 置 ， 以 及 刘 挺 
等 中 总 结 的 标题 、 位 置 、 句 法 结构 等 信息 均 可 作为 衡 
量 句 子 重要 性 的 指标 -Edmundsont*! 选 择 其 中 的 几 种 变 
量 , 构造 了 一 个 简单 的 多 元 线性 函数 : Weight(x) = 
aC+tayK+a3T+qsL, 其 中 C、K、7T、 工 分 别 为 4 种 
特征 变量 ， 其 他 为 调节 参数 , 用 多 种 特征 描述 句子 的 
权重 值 。 实 践 表 明 这 种 表示 方法 并 不 理想 ， 其 线性 相 
加 的 过 程 缺 乏 理论 基础 。 统 计 特 征 的 方法 具有 过 程 简 
单 、 识 别 速度 快 的 特点 , 但 特征 选择 及 加 权 方 法 很 大 
程度 影响 识别 结果 , 效果 并 不 是 很 稳定 。 

(2) 基于 机 带 学 习 二 分 类 的 方法 。 将 文本 主题 句 
的 识别 转换 句子 层面 是 否 是 主题 句 的 二 分 类 问题 进行 
判别 , 其 主要 包括 特征 选择 、 算 法 选择 、 模 型 训练 、 
主题 句 判 别 4 个 步骤 ,可 用 于 主题 句 识 别 的 机 带 学 习 
算法 有 朴素 贝 叶 斯 、 条 件 随 机 场 、 支 持 向 量 机 等 多 种 
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归并 同 近 义 词 , 采用 向 量 空间 模型 表示 句子 , 计算 余 
弦 相 似 度 作为 边 的 权 值 ， 并 加 入 人 工 特征 对 TextRank 
算法 计算 结果 进行 优化 。 而 耿 焕 同等 中 、 何 维 等 11 利 
用 词 共 现形 成 的 主题 信息 以 及 不 同 主题 间 的 连接 特征 
识别 主题 句 。 图 排序 方法 不 需要 外 部 知识 以 及 训练 样 
本 就 可 取得 结果 , 但 结果 质量 受 边 权 值 计算 方式 的 影 
响 ， 也 不 是 很 稳定 。 

对 于 科技 论文 这 种 内 容 结构 化 较 强 的 文本 数据 ， 
句子 间 存 在 隐 含 的 语义 联系 。 因 此 , 本文 在 图 排序 算 
法 进行 主题 句 识别 的 基础 上 ,对 句子 间 相 似 度 计算 方 
法 进行 改进 , 并 考虑 文本 结构 化 特征 对 结果 进行 优化 ， 
提升 识别 结果 。 


3 识别 方法 


科技 论文 是 作者 对 科研 过 程 相关 研究 的 总 结 ， 
Said 等 上 指出 作者 的 写作 思路 在 一 定 程 度 上 影响 了 文 
章 的 内 容 结构 ， 这 种 结构 体现 在 文章 的 逻辑 元 素 ( 如 标 
题 、 段 落 、 片 段 等 ) 之 间 的 关系 。 同 时 利用 文本 段落 句 
子 的 内 部 联系 以 及 论文 整体 的 外 部 结构 对 识别 文本 段 
落 中 的 核心 成 分 将 会 起 到 重要 作用 。 

本 文 提 出 的 论文 核心 主题 句 识 别 方法 主要 包括 词 


模型 。Kupiec 等 中 以 名 长、 固定 短语 、 段 落 、 主 题词 
和 大 写字 母 词 语 等 特征 , 首次 运用 NB 分 类 器 对 文本 
进行 主题 句 识别 。(Conroy 等 "将 HMM 运用 于 主题 句 
识别 ， 利 用 观测 序列 寻找 最 可 能 的 隐 含 状态 序列 ， 
将 句子 位 置 、 词 频 及 词 的 概率 3 个 文档 特征 构成 观 
测 状态 转移 概率 和 矩阵 ,构建 预测 模型 判别 。 机 器 学 习 
二 分 类 的 方法 效果 虽然 较 好 , 但 需要 提前 准备 较 多 
训练 数据 ， 且 依赖 于 特征 独立 性 假设 , 适用 性 和 可 操 
作 性 不 强 。 

(3) 基于 图 排序 的 方法 。 将 文本 段 分 解 为 若干 个 
句子 单元 , 每 一 个 单元 对 应 图 结构 中 的 一 个 顶点 , 各 
个 单元 之 间 的 相似 性 关系 作为 边 , 通过 图 排序 的 算法 
得 出 各 顶点 的 得 分 , 并 在 此 基础 上 选择 较 高 得 分 的 句 
子 作为 主题 句 。 不 同 的 图 排序 方法 主要 因 边 权 值 的 计 
算 方式 以 及 图 排序 算法 的 选择 不 同 。 常 见 的 边 权 值 计 
算 方式 包括 词 共 现 、 句 子 相 似 度 等 ; 图 排序 算法 包括 
矩阵 权 值 相 加 、PageRank 等 方法 。Mihalcea 等 中 首先 
提出 TextRank 算法 , 将 图 排序 应 用 到 主题 句 识 别 中 ， 
并 在 文献 [1 中 做 了 优化 。 余 珊 珊 等 上 过 滤 非 重要 词 ， 


数据 分 析 与 知识 发 现 


向 量 表示 与 训练 、 句 子 间 相似 度 计 算 、TextRank 算法 
迭代 计算 、 利 用 外 部 结构 特征 优化 结果 4 个 步骤 ,如 
1 所 示 。 


领域 全 文 数据 领域 论文 


词 向 量 训练 分 名 过滤、 句子 特征 提取 


vy 将 
| 词 向 量 句子 及 其 特征 集 | 


句子 WMD 上 距离 矩阵 


TextRank 算 法 迭代 至 收敛 


v 
根据 句子 位 置 加 权 
v 
根据 核心 词汇 加 权 


Y 
根据 句子 类 别 加 权 


Y 
按 权重 排序 选择 主题 名 


图 1 本 文 核心 主题 名 识别 方法 基本 流程 


首先 , 利用 Word2Vec 模型 对 领域 科技 论文 全 文 
进行 训练 , 得 到 领域 词 向 量 ; 其 次 ， 对 各 个 论文 文本 
段落 进行 分 句 , 去 除 无 意义 的 短 句 ,利用 训练 好 的 词 
问 量 表示 句子 间 的 WMD 距离 ， 并 转换 为 句子 相似 度 ; 
再 者 , 针对 每 个 文本 段落 构建 无 向 权重 图 , 边 权重 用 
句子 间 相 似 度 表示 , 用 TextRank 算法 进行 迭代 计算 ， 
得 到 各 句子 的 权重 值 ; 最 后 , 利用 句子 位 置 ,大纲 结构 
等 特征 信息 对 权重 值 进行 调整 并 排序 ， 最 终 按 比例 识 
别 出 论 文 的 核心 主题 句 。 

3.1 基于 WMD 语义 相似 度 的 TextRank 改进 算法 

(1) 词 向 量 表示 与 训练 

词 是 承载 语义 的 最 基本 的 单元 。 传 统 的 独 热 表 示 
(One-hot Representatiom 把 每 个 词 孤立 ,并 用 0 和 1 表 
示 ,， 整 个 向 量 并 不 包含 语义 信息 , 并 且 存 在 维 数 灾难 
问题 。 Harris09 提出 的 分 布 假说 (Distributional 
Hypothesis) 表 明 词 的 语义 由 其 上 下 文 决 定 。Bengio 等 (7 
提出 神经 网 络 语言 模型 (Neural Network Language 


歧 , 并 在 计算 过 程 中 兼顾 词语 在 语义 层面 的 相似 性 请 。 
前 两 种 方法 存在 向 量 维 数 灾难 及 同 近 义 词 的 问题 ， 而 
第 三 种 方法 依赖 外 部 知识 ， 外 部 知识 的 好 坏 及 未 收录 
的 词 直接 影响 了 计算 结果 , 不 具有 可 扩展 性 。 

词 向 量 较 好 地 解决 了 上 述 问 题 , 训练 过 程 简单 ， 
且 得 到 的 词 与 词 之 间 存 在 潜在 的 语义 关系 ， 如 
Mikolov 等 中 发现 两 个 词 向 量 之 间 存 在 着 加 减 关 系 ， 
c(king) 一 c(queen) = c(man) 一 c(woman) 。 将 句子 中 每 
个 词 的 词 向 量 直 接 相 加 并 做 归 一 化 得 到 名 向 量 ， 计 算 
名 向 量 间 余 弱 值 有 不 错 的 效果 。Kusner 等 中 在 此 基础 
上 提出 了 Word Mover's Distance(WMD), 词 - 词 相似 
度 用 欧 氏 距离 表示 , 句子 -句子 相似 度 转 化 为 运输 最 
优化 问题 , 将 两 个 句子 相似 看 成 两 个 概率 分 布 的 变换 ， 
其 句子 间距 离 由 变换 代价 表示 ,并 应 用 于 KNN 文本 
分 类 取得 良好 效果 。 同 时 , 文章 证 明了 对 词 向 量 求 平 
均值 算 欧 式 距离 是 WMD 的 下 界 。 

句子 间 WMD 距离 计算 , 首先 将 两 个 句子 s,s' 转 


Model，NNLM), 通过 神经 网 络 语言 模型 对 目标 词 以 


变 为 词 袋 , 并 去 除 停 用 词 ， 共计 4 个 词 , 对 剩 下 词 的 


及 更 复杂 的 上 下 文 之 间 关 系 进行 建 模 , 在 学 习 语 言 模 
型 的 同时 ， 也 得 到 了 维 数 较 低 的 副产品 Word 
Embedding, 俗称 词 向 量 。 这 种 传统 NNLM 模型 计算 
复杂 度 较 高 ,对 于 较 大 数据 集运 行 效率 低 。Mikolov 
等 中 在 此 基础 上 移 除了 隐藏 层 , 提出 了 CBOW 
(Continuous Bag-of-Words) 和 Skip-gram 模型 。CBOW 
模型 是 用 上 下 文 的 词 预测 该 词 ，Skip-gram 则 相反 ， 以 
当前 词 的 词 向 量 为 输入 , 输出 层 是 该 词 周围 单词 的 词 
向 量 。 而 训练 过 程 则 有 两 种 优化 方法 : Hierarchical 
Softmax, 通过 将 原 Softmax 方法 转换 带 有 霍 夫 曼 树 的 
层级 Softmax, 利用 霍 夫 曼 树 的 特性 将 预测 时 间 缩 短 
logn 倍 ; Negative Sampling, 利用 更 简单 的 随机 带 权 
负 采 样 方法 可 以 大 幅度 提高 性 能 ， 加快 计算 速度 。 这 
两 种 模型 与 方法 可 以 任意 搭配 使 用 , 并 日 在 Google 于 
2013 年 发 布 Word2Vec[ 开源 工具 包 里 有 完整 实现 。 

(2) 句子 相似 度 计算 

传统 的 句子 相似 度 计 算 方 法 包括 : 基于 特征 词 的 
方法 , 利用 TF-IDF、 卡 方 值 、 互 信息 等 选择 特征 词 , 构 
建 向 量 进行 计算 请; 基于 句法 分 析 的 方法 ， 对 句子 进 
行 句法 分 析 , 计算 句子 之 间 的 句法 结构 及 内 容 的 相似 
程度 , 目前 以 简单 句法 结构 匹配 为 主 * 1 基于 语义 分 
析 的 方法 , 通过 语义 词典 或 本 体 对 句子 中 词语 进行 消 


词 频 做 归 一 化 处 理 , 构建 词 频 向 量 , 记 为 d,d'e R”， 
计算 词 袋 中 每 两 个 词 的 欧式 距离 作为 词 转换 的 运输 成 
本 , 构建 转移 矩阵 Te R”™, 将 其 中 一 个 句子 所 有 的 
词 转变 为 男 一 个 句子 的 所 有 词 所 耗费 的 成 本 记 为 
Dr ,Dc 四， 计算 距 离 转变 为 求解 运输 成 本 最 小 值 
问题 ， 如 公式 (1) 所 示 。 


. ee 
上 je) 
st. : DT =4d;,Vie {ln} (1) 
/j=l 


2 =dj,viet{l.n)} 


采用 EMD 算法 请 解决 ,变换 过 程 如 图 2 所 示 口 。 


Obama | speaks | to the | media | in| Tllinois. 


1.07 三 A NN, + 0.20 \ 十 0.18 


The President greets the press in Chicago. 


1.63=0.49 || + of + 0.44 + 0.28 pa 


The [Dana [gave]a [concert |in [apan] 
图 2 身子 WMD 距离 计算 过 程 
句子 间 相 似 度 采 用 类 似 欧 氏 距 离 转 相 似 度 的 方 
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法 , 最 终 得 到 句子 间 的 相似 度 度量 ， 如 公式 (2) 所 示 。 
, 1 
I ® 

(3) TextRank 算法 迭代 计算 

一 篇 文档 通常 由 多 个 段落 组 成 , 连续 的 段落 在 内 
容 上 是 相近 的 , 形成 语义 内 聚 的 节 ,， 对 应 一 个 子 主题 ， 
并 按照 大 纲 层 级 统一 在 上 层 主题 下 。 同 一 节 下 内 容 相 
近 段 落 中 的 句子 构成 独立 的 句 群 ,以 句 群 为 单位 构建 
网 络 图 进行 主题 句 识别 ,可 以 很 好 地 识别 出 能 相对 代 
表 整 个 小 节 内 容 的 主题 句 , 保证 识别 效果 。 

TextRank 方 法 借鉴 PageRank 算 法 的 思想 , 将 句子 
间 的 相似 关系 看 成 是 一 种 支持 或 推荐 的 关系 , 将 句子 
作为 节点 , 利用 句子 间 相 似 度 表 示 句 子 间 的 关系 作为 
边 , 构建 图 模型 , 通过 迭代 计算 优化 各 句子 的 权重 值 ， 
再 选择 权重 较 高 的 句子 作为 主题 句 。 

假设 文本 段落 由 集合 VV 中 个 句子 VU<i<n) 
组 成 ,以 矿 为 节点 并 以 节点 间 相 似 关系 为 边 构 建 
TextRank 网 络 图 G 。 通 过 前 面 句子 相似 度 计算 可 得 到 
1x7 的 句子 相似 度 矩 阵 ys ， 如 公式 (3) 所 示 。 


六 G) 


根据 给 定 的 G 及 5, 迭代 计算 各 个 节点 的 权重 ， 
权重 计算 如 公式 (4) 所 示 。 


WS Y= x > 
n 


Sy 
—=—— WS(Y;) (4) 
Veln(y;) Sj 


Ney,) ” 

其 中 ，WS(V) 是 节点 坟 的 权重 值 ，1n(V) 代表 指 
向 琅 的 节点 集合 ，Out(7) 代表 斤 所 指向 的 节点 集合 ， 
d 是 阻尼 系数 , 一般 设 置 为 0.85。 各 个 节点 的 初始 权 
重 一 般 设 为 1/n， 当 两 次 迭代 后 权重 变化 差别 非常 小 
并 接近 于 零 时 停止 迭代 ,最 终 得 到 各 句子 的 权 值 ， 最 
后 根据 权 值 排序 选择 一 定 比 例 的 权 值 较 大 句子 作为 主 
题 句 。 
3.2 ”外 部 特征 选取 及 权 值 计算 

经 过 迭代 计算 得 到 的 句子 权重 会 收敛 趋 于 稳定 ， 
这 个 稳定 值 由 其 他 句子 决定 ， 而 与 初始 值 无 关 , 故 在 
算法 迭代 前 调整 各 句子 的 权 值 是 无 意义 的 。 在 
TextRank 算法 完成 后 , 通过 加 入 外 部 特征 对 所 得 句子 
权重 序列 进行 调整 ， 具体 特征 调整 方法 如 下 。 
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(1) 句子 所 在 位 置 

Baxendalel9 通 过 统计 发 现 段落 的 主题 句 为 段落 首 
句 的 概率 为 85%， 为 段落 未 句 的 概率 为 7%。 同 理 对 小 
节 中 段落 而 言 ， 首尾 段落 则 更 有 可 能 对 小 节 内 容 进行 
引导 或 总 结 , 揭示 主题 内 容 。 故 可 根据 段落 在 小 节 中 
的 位 置 以 及 句子 在 段落 中 的 位 置 对 句子 权重 进行 加 
权 , 首 段 和 尾 段 中 句子 权重 提升 更 大 ,段落 中 首 句 和 
尾 名 的 权重 提升 也 更 大 ,两 种 加 权 方 式 可 采用 同样 的 
函数 ,具体 加 权 函 数 如 公式 (5) 所 示 。 


l+(-x)xe 0<x0.3 
1 0.3=x=0.7 (5) 
l+Xxe, 0.7 三 x=1 


其 中 ，e 和 ,为 可 调整 的 阅 值 ， 这 里 可 取 
ea =es = 0.1，xY 表示 句子 所 在 段落 位 置 或 段落 所 在 小 
节 的 百分比 , 由 前 至 后 分 别 为 0 至 1, 权重 提升 比分 别 
记 为 pi 及 p,， 最 终 权 值 调整 为 : 

WS(V) := WS(V)x pi x p» (6) 

(2) 核心 术语 

TextRank 算法 从 句 群 内 部 提炼 出 了 相对 能 表达 小 
节 自 身 内 容 的 句子 , 但 不 一 定 与 文章 所 表达 的 主题 相 
关 。 因 此 , 可 考虑 利用 文章 标题 、 关 键 词 、 大 纲 等 相 
对 于 句 群 的 外 部 特征 来 进行 优化 。 利 用 何 远 标 等 中 提 
出 的 大 纲 术 语 抽 取 方 法 ,对 标题 、 小 节 所 在 的 大 纲 层 
级 结构 进行 术语 识别 并 与 关键 词 合并 , 得 到 核心 术语 
集合 。 越 能 体现 核心 术语 的 句子 , 则 越 有 可 能 是 核心 
主题 句 。 对 于 核心 术语 在 句子 中 的 体现 , 目前 的 解决 
方案 仅 为 包含 关系 , 即 WS(V) := WS(V.)x(l+tpsxn)， 
万 ;为 加 权 权重 , 这 里 取 0.1，n 为 包含 的 核心 词汇 个 数 。 

(3) 句子 类 别 

文献 [26] 指 出 大 纲 中 除了 一 些 具体 的 术语 , 也 包 
含 大 量具 有 广泛 意义 的 论文 术语 ， 如 “method”、 
“conclusion”* 等 ,是 针对 某 研究 点 的 分 面 描述 ， 可 作为 
主题 描述 框架 的 标志 。 对 于 论文 全 文 内 容 , 具有 一 定 
类 别 的 句子 则 具有 更 大 的 价值 ,能 更 好 地 阐述 主题 相 
关 的 分 面 描述 。 同 时 这 种 带 有 一 定 类 别 句子 的 识别 ， 
正好 是 结构 化 摘要 的 体现 。 故 可 考虑 对 带 有 一 定 类 别 
的 句子 进行 加 权 ， 而 对 于 含有 论文 术语 的 大 纲 及 文本 
段 ， 对 应 论文 术语 类 别 的 句子 则 是 文本 段 内 容 的 集中 
体现 ， 可 加 大 该 部 分 句子 的 加 权 比 重 , 具体 加 权 本 数 
为 WS(W) := WS(V)x[ltpax(nt+5xb)] ,其 中 ps 为 加 


权 权 重 , 这 里 取 0.1，n 为 句子 的 类 别 个 数 ，2 为 句子 
是 否 含有 论文 术语 中 的 类 别 , 取 值 为 0 或 1。 句 子 分 类 
可 采用 朴素 贝 叶 斯 、 条 件 随 机 场 等 传统 分 类 模型 或 基 
于 LSTM、GRUP "等 深度 神经 网 络 的 分 类 器 方案 解决 ， 
这 里 不 再 袭 述 。 


4 实验 过 程 与 结果 分 析 


4.1 实验 过 程 

为 验证 上 述 主题 名 识别 方法 的 有 效 性 , 本 文 以 气 
候 变化 领域 数据 进行 实验 。 实 验 数据 是 以 期 刊 为 单位 ， 
从 Elsevier 上 下 载 了 包括 4Atmospheric Research 等 10 
种 期 刊 论文 全 文 数据 共 31 430 篇 。 

从 论文 全 文 数据 中 提取 论文 的 标题 、 摘 要 、 大 纲 、 
全 文 等 信息 构建 词 向 量 训练 语 料 , 根据 数据 量 及 自然 
语言 处 理 任务 , 选择 合适 的 训练 模型 、 优 化 算法 及 超 
参数 ,本 文选 择 Skip-gram 模型 及 Hierarchical Softmax 
方法 , 该 搭配 能 更 好 地 表示 不 常见 的 领域 词汇 , 另外 ， 
其 他 超 参 数 如 上 下 文 窗口 为 5, 词 向 量 维度 大 小 为 100 
等 。 经 过 5 个 小 时 的 训练 , 最终 得 到 一 个 大 小 约 为 
400MB 的 词 向 量 文件 。 

对 论文 全 文 进行 分 句 , 提取 该 句子 的 位 置 、 所 在 
小 节 、 大 纲 等 文本 特征 ， 以 每 个 小 节 为 单位 , 利用 上 述 


结果 均 不 太 理 想 , 通过 对 实验 数据 及 结果 进行 分 析 发 
现 , 具体 原因 如 下 : 

(1) 测试 集 均 为 与 El Niiio 现象 的 数据 ,其 标注 内 
容 与 词 向 量 训练 语 料 相关 度 较 低 , 部 分 词汇 的 词 向 量 
表达 较 差 , 影响 了 句子 相关 度 计算 ; 

(2) 测试 集 由 一 位 领域 专家 标注 ， 其 评估 准确 度 
可 能 存在 一 定 偏差 ; 

(3) 本 文 以 各 小 节 为 识别 基本 单元 , 采用 固定 比 
例 方 式 进行 识别 , 其 假设 论文 的 核心 主题 句 在 文中 是 
均匀 分 布 的 。 而 事实 上 , 论文 核心 主题 句 在 论文 各 部 
分 的 分 布 是 有 差异 的 , 例如 引言 、 实 验 结果 及 结论 部 
分 体现 着 论文 的 主要 产 出 成 果 , 其 核心 主题 名 分布 较 
高 ， 而 在 对 相关 研究 及 方法 介绍 上 , 核心 主题 句 的 分 
布 较 低 。 采 用 同样 比例 的 识别 过 程 较 大 程度 上 影响 了 
结果 。 

故 本 文 使 用 计算 机 领域 数据 作为 词 向 量 训练 语 
料 , 实验 过 程 同 上 述 过 程 一 样 ， 随机 选择 词 向 量 训练 
语 料 中 的 10 篇 文章 标记 , 标记 数据 上 采用 多 人 协同 标 
注 选 取 共 同 认可 的 句子 , 同时 在 识别 过 程 中 , 加 大 论 
文 首尾 部 分 的 识别 比例 为 其 他 部 分 的 两 倍 ,最 终 实验 
结果 如 表 2 所 示 。 

表 2 计算 机 领域 4 种 算法 的 实验 结果 比较 


词 向 量 文件 构建 各 句子 间 的 基于 WMD 的 语义 相似 度 ， 
采用 改进 TextRank 算法 识别 主题 句 。 测试 预料 采用 由 
领域 专家 标注 的 9 篇 全 文 数据 及 其 主题 句 。 
4.2 结果 分 析 

本 文 除 了 利用 上 述 方法 识别 核心 主题 句 , 同时 也 
基于 相同 的 训练 语 料 及 测试 文档 , 实现 了 传统 
TextRank 算法 、WMD 算 阵 相 加 的 方法 、WMD 和 
TextRank 算法 ,并 对 这 4 种 方法 进行 分 析 比 较 , 结果 
如 表 1 所 示 。 

表 1 气候 变化 领域 4 种 算法 的 实验 结果 比较 


方法 准确 率 ”召回 率 ”Fl 值 
TextRank 24.88% 22.94% 23.87% 
WMD 22.89% 21.10% 21.96% 
WMD+TextRank 23.38% 21.56% 22.43% 
本 文 方法 (WMD+TextRank 


27.11% 25% 26.01% 


+ 外 部 特征 优化 ) 


方法 准确 率 。 召回 率 。 1 值 
TextRank 25.05% 38.59% 30.37% 
WMD 20.24% 31.17% 24.54% 
WMD+ TextRank 27.66% 42.59% 33.54% 
法 (WMD+TextRank 
本 文 方法 ( Xa 29.06% 44.75% 35.24% 


+ 外 部 特征 优化 ) 


通过 对 实验 过 程 进行 部 分 调整 ,其 识别 效果 较 上 
次 实验 Fl 值 提高 了 近 10%, 同时 本 文 方法 较 传 统 的 
TextRank 方法 Fl 值 提高 了 近 5%, 取得 了 相对 较 好 的 
效果 。 

对 上 述 实验 过 程 及 结果 进行 总 结 , 得 出 以 下 结论 。 

(1) 传统 的 TextRank 算法 识别 效果 比较 稳定 ， 其 识 
别 出 的 句子 因 受 限于 相似 度 计算 方法 , 而 普遍 较 长 。 

(2) 词 向 量 的 质量 影响 了 句子 相似 度 计算 ,从 而 
影响 了 本 文 方法 的 识别 结果 。 而 对 于 传统 的 TextRank 
算法 ,其 计算 过 程 基于 共 现 关系 , 而 与 词 的 潜在 语义 


表 1 的 实验 结果 显示 ,虽然 在 同一 文本 段落 中 ， 
本 文 方法 较 其 他 方法 结果 稍 好 一 些 , 但 这 4 种 方法 的 


无 关 , 所 以 词 向 量 较 差 时 效果 稍 好 。 
(3) 在 句子 可 利用 程度 方面 , 虽然 本 文 识别 效果 
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仍 有 很 大 提升 空间 , 但 通过 对 本 文 方法 所 识别 的 结果 
进行 认真 分 析 发 现 , 结果 集中 未 命中 的 句子 普遍 也 是 
有 价值 的 句子 , 整体 质量 上 较 其 他 三 种 方法 更 好 。 

(4) 未 命中 的 句子 中 ， 有 一 部 分 含有 特殊 引导 词 
(如 “Hence”、“In this paper”、“It shows that” 等 ) 、 数 值 
型 文本 等 具有 明确 特征 的 句子 , 前 者 表明 作者 在 论文 
中 声明 的 重要 总 结 性 句子 , 而 后 者 表明 论文 最 具 说 服 
力 的 论据 ,两 者 在 论证 论文 核心 主题 上 起 到 重要 作 
用 。 而 由 于 采用 图 模型 句子 相似 的 方法 ,弱化 了 这 些 
信息 , 使 得 这 些 句 子 未 识别 出 来 。 可 通过 进一步 研究 
来 抽取 这 些 特 征 , 优化 识别 方法 ,提高 识别 效果 。 

综 上 所 述 , 本 文 提 出 的 主题 句 识 别 方法 , 不 需要 
任何 外 部 知识 结构 ， 利 用 全 文 构建 词 向 量 , 改进 相似 
度 计算 方法 完善 TextRank 迭代 过 程 ， 并 基于 外 部 特征 
对 所 得 结果 权 值 进行 调整 ， 同时 利用 文本 段落 句子 内 
部 联系 以 及 论文 整体 外 部 结构 的 丰富 信息 ,识别 效果 
达到 人 工 评测 平均 水 平 ， 较 文献 [12] 要 好 ,但 仍 有 较 
大 的 改进 之 处 。 


T 


S 结 语 


本 文 分 析 了 目前 主流 的 主题 名 抽取 方法 , 并 针对 
科技 论文 的 特点 ,基于 领域 词 向 量 , 融合 WMD 语义 
相似 度 的 TextRank 改进 算法 识别 主题 句 。 实验 结果 表 
明 , 本 文 的 主题 名 识别 方法 能 够 较 好 地 甄别 科技 论文 
小 节 内 部 中 心 名 , 辅 以 外 部 特征 的 权 值 调整 后 可 以 较 
好 地 识别 出 一 篇 论文 的 核心 主题 句 , 但 在 句子 特征 提 
取 和 词 向 量 训练 过 程 还 存在 一 定 不 足 ， 男 外 主题 句 识 
别 方法 中 各 项 参数 仍 需 进一步 调 优 。 下 一 步 工 作 将 继 
续 优 化 方法 中 的 各 项 参数 ,提取 更 有 效 的 句子 特征 ， 
并 利用 词 向 量 发 现 核 心 词汇 与 句子 的 潜在 关系 , 提升 
核心 主题 句 识别 准确 率 。 
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Recognizing Core Topic Sentences with Improved TextRank Algorithm 
Based on WMD Semantic Similarity 


Wang Zixuan"” Le Xiaogiu! He Yuanbiao! 
!(National Science Library, Chinese Academy of Sciences, Beijing 100190, China) 
? (University of Chinese Academy of Sciences, Beijing 100049, China) 


Abstract: [Objective] This paper aims to automatically recognize key sentences describing the research topics of 
scientific papers. [Methods] First, we used paper sections as the unit to organize sentence sets. Then, we calculated the 
WMD distance between sentences by trained domain word embeddings. Third, we optimized the iterative process of 
TextRank algorithm, and used external features to adjust sentence’s weights. Finally, we identified the core topic 
sentences according to the sentence’s weights descendingly. [Results] We examined the proposed method with 
scientific papers on climate changes and compared it with the traditional TextRank algorithm. The recognition 
efficiency (F-value) was about 5% higher than that of the TextRank algorithm. [Limitations] The extraction of sentence 
features needs to be improved, and word embedding training and related parameters of the proposed method need to be 
further optimized. [Conclusions] The improved TextRank algorithm, could effectively recognize inner core sentences 
of scientific paper sections. It could recognize core topic sentences of a paper with the adjusted weights of external 
features. 


Keywords: WMD TextRank Semantic Similarity Topic Sentence Recognition External Features 


ProQuest 和 CALIS 合作 增加 中 文学 术 成 果 全 球 曝 光度 


ProQuest 和 中 国 高 校 图 书馆 联盟 一 一 中 国 高 等 教育 保障 系统 (CALIS) 于 近日 宣布 延长 他 们 之 间 的 长 期 合作 关系 。 目 前 ， 
来 自 中 国 知名 大 学 的 共 27 万 篇 学 位 论文 摘要 可 在 全 球 范围 内 进行 获取 , 这 些 记 录 以 英文 形式 被 ProQuest 博 硕 士 论 文 全 球 数 
据 库 (PQDT Global 收录 , 世界 各 地 3 000 多 所 大 学 的 科研 工作 者 都 能 从 中 发 现 中 国 的 学 术 研究 成 果 。 这 一 合作 推动 了 全 球 
科学 研究 ， 帮 助 全 球 科 研 工 作者 更 全 面 地 了 解 和 发 现 学 术 活 动 。 同 时 也 帮助 了 中 国 大 学 更 好 地 向 国外 传播 中 国学 生 的 科研 
工作 。 

这 是 ProQuest 和 CALIS 就 学 位 论文 进行 的 第 二 个 合作 项 目 。 此 前 , 他 们 已 经 共同 合作 了 十 几 年 。2003 年 , 他 们 合作 创 
建 了 一 个 论文 资源 库 , 使 CALIS 成 员 图 书馆 能 够 在 CALIS 平台 上 发 现 和 访问 PQDT Global 的 63 万 多 篇 博 硕士 论文 全 文 。 

(编译 自 : http://www.proquest.com/about/news/2017/ProQuest-and-CALIS-Bring-Chinese-Scholarship-to-a-Global-Audience.htm]l) 
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